Scholar Hub/Chủ đề/#máy học/
Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học v...
Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học và cải thiện từ dữ liệu mà không cần lập trình cụ thể. Máy học giúp máy tính tự động học hỏi và phân tích dữ liệu để tạo ra các dự đoán hoặc đưa ra quyết định mà không cần được lập trình trực tiếp. Các ứng dụng của máy học có thể nằm trong các lĩnh vực như nhận diện giọng nói, nhận dạng hình ảnh, phân loại dữ liệu, dự đoán kết quả và hỗ trợ quyết định.
Máy học có ba dạng chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning), và học bán giám sát (semi-supervised learning).
1. Học có giám sát: Trong học có giám sát, một nhãn đã biết trước được gán cho mỗi mẫu đào tạo để hướng dẫn quá trình học. Mục tiêu là xây dựng mô hình dự đoán một nhãn cho các dữ liệu mới. Ví dụ, trong bài toán phân loại ảnh, mỗi ảnh sẽ có nhãn đích như "mèo" hoặc "chó". Các thuật toán phổ biến trong học có giám sát bao gồm hồi quy tuyến tính, máy vector hỗ trợ (SVM), và mạng neural.
2. Học không giám sát: Trong học không giám sát, không có nhãn được cung cấp cho dữ liệu đầu vào. Mục tiêu của học không giám sát là tìm ra cấu trúc, mô hình hoặc nhóm dữ liệu. Ví dụ, trong phân cụm dữ liệu, thuật toán cố gắng nhóm các mẫu dữ liệu vào các cụm dựa trên đặc điểm chung của chúng. Các thuật toán phổ biến trong học không giám sát bao gồm K-means, Gaussian Mixture Models (GMM), và thuật toán Apriori.
3. Học bán giám sát: Là một sự kết hợp giữa học có giám sát và học không giám sát. Một phần dữ liệu có nhãn và một phần không có nhãn được sử dụng để huấn luyện mô hình. Mục tiêu là phát triển một mô hình có khả năng dự đoán nhãn cho các dữ liệu mới mà không cần nhãn đích cho tất cả các mẫu. Điều này hữu ích trong những tình huống khi việc gán nhãn dữ liệu tốn kém hoặc mất nhiều công sức.
Dưới đây là một số khái niệm chi tiết hơn liên quan đến máy học:
1. Tập dữ liệu (Dataset): Tập dữ liệu là tập hợp các mẫu dữ liệu mà mô hình máy học được huấn luyện hoặc kiểm tra. Mỗi mẫu dữ liệu trong tập dữ liệu có thể bao gồm nhiều đặc trưng (features) và một nhãn (label) đích (trong trường hợp học có giám sát).
2. Huấn luyện (Training): Quá trình huấn luyện là quá trình truyền thông tin từ tập dữ liệu huấn luyện vào mô hình máy học. Mô hình sẽ sử dụng các thuật toán và phương pháp để học từ dữ liệu và thích nghi với nó. Mục tiêu của quá trình huấn luyện là tìm ra các thông số và mô hình tối ưu nhất để dự đoán đúng các dữ liệu mới.
3. Mô hình (Model): Mô hình trong máy học là một hàm toán học hoặc một tập hợp các quy tắc mà máy tính sử dụng để dự đoán hoặc phân loại dữ liệu mới. Mô hình có thể đại diện cho một loại học tập cụ thể như hồi quy tuyến tính, cây quyết định, hoặc mạng neural, và cần được huấn luyện để phù hợp với mục tiêu xác định.
4. Đánh giá (Evaluation): Đánh giá là quá trình đo lường hiệu suất của mô hình trên tập dữ liệu kiểm tra hoặc tập dữ liệu không được sử dụng trong quá trình huấn luyện. Đánh giá thường sử dụng các thước đo như độ chính xác (accuracy), độ mất mát (loss), độ phân loại đúng (precision), độ phủ (recall), và F1 score để đánh giá mức độ hiệu quả của mô hình.
5. Học trực tuyến (Online learning): Học trực tuyến là một hình thức của máy học nơ-ron mà mô hình được huấn luyện liên tục trên dữ liệu khi dữ liệu mới được đưa vào. Điều này cho phép mô hình cập nhật và thích nghi với thông tin mới mà không cần phải huấn luyện lại từ đầu.
6. Đặc trưng (Features): Đặc trưng là các thuộc tính hoặc đặc điểm quan trọng của dữ liệu mà mô hình sử dụng để dự đoán hay phân loại. Việc chọn và rút trích đặc trưng quan trọng từ dữ liệu đầu vào có thể ảnh hưởng đến hiệu suất của mô hình.
7. Gán nhãn (Labeling): Gán nhãn là quá trình gắn nhãn hoặc phân loại các mẫu dữ liệu với nhãn đích hoặc các nhóm cụ thể. Gán nhãn dữ liệu là một công việc tốn kém và phải được thực hiện bởi con người, vì vậy sự tự động hóa gán nhãn là một lĩnh vực quan trọng trong máy học.
Thông qua việc áp dụng và phân tích dữ liệu, máy học hỗ trợ trong việc giải quyết các bài toán phức tạp và đưa ra dự đoán chính xác và đáng tin cậy.
Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắtProtein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Học máy: Xu hướng, góc nhìn, và triển vọng American Association for the Advancement of Science (AAAS) - Tập 349 Số 6245 - Trang 255-260 - 2015
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.
#Học máy #trí tuệ nhân tạo #khoa học dữ liệu #thuật toán #dữ liệu trực tuyến #tính toán chi phí thấp #ra quyết định dựa trên bằng chứng #chăm sóc sức khỏe #sản xuất #giáo dục #mô hình tài chính #cảnh sát #tiếp thị.
Các cuộc tấn công đối kháng vào máy học y tế American Association for the Advancement of Science (AAAS) - Tập 363 Số 6433 - Trang 1287-1289 - 2019
Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới
#tấn công đối kháng #máy học y tế #lỗ hổng #bảo mật #trí tuệ nhân tạo
Kỹ Thuật Xử Lý Ô Nhiễm Kim Loại Nặng Từ Đất: Tích Tụ Tự Nhiên So Với Chiết Xuất Cải Tiến Hóa Học Journal of Environmental Quality - Tập 30 Số 6 - Trang 1919-1926 - 2001
TÓM TẮTMột thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là Thlaspi caerulescens J. Presl & C. Presl so với chiết xuất cải tiến hóa học sử dụng ngô (Zea mays L.) được xử lý bằng axit ethylenediaminetetraacetic acid (EDTA). Nghiên cứu sử dụng đất bị ô nhiễm công nghiệp và đất nông nghiệp bị ô nhiễm kim loại từ bùn thải. Ba vụ mùa của T. caerulescens trồng trong vòng 391 ngày đã loại bỏ hơn 8 mg kg−1 Cd và 200 mg kg−1 Zn từ đất bị ô nhiễm công nghiệp, tương đương 43% và 7% các kim loại trong đất. Ngược lại, nồng độ Cu cao trong đất nông nghiệp đã làm giảm nghiêm trọng sự phát triển của T. caerulescens, do đó hạn chế tiềm năng chiết xuất của nó. Quá trình xử lý bằng EDTA đã tăng đáng kể tính hòa tan của kim loại nặng trong cả hai loại đất, nhưng không dẫn đến tăng lớn hàm lượng kim loại trong chồi ngô. Chiết xuất Cd và Zn bằng ngô + EDTA nhỏ hơn nhiều so với T. caerulescens từ đất bị ô nhiễm công nghiệp, và nhỏ hơn (Cd) hoặc tương tự (Zn) so với đất nông nghiệp. Sau khi xử lý bằng EDTA, kim loại nặng hòa tan trong nước lỗ chân lông của đất chủ yếu tồn tại dưới dạng phức hợp EDTA-kim loại, duy trì trong vài tuần. Hàm lượng cao của kim loại nặng trong nước lỗ chân lông sau quá trình xử lý EDTA có thể gây nguy cơ môi trường dưới dạng ô nhiễm nước ngầm.
#Xử lý ô nhiễm #tích tụ tự nhiên #chiết xuất hóa học #kim loại nặng #<i>Thlaspi caerulescens</i> #<i>Zea mays</i> #EDTA #ô nhiễm nước ngầm #sự bền vững môi trường
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021
Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.
#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
Google Earth Engine, Dữ liệu vệ tinh truy cập mở, và Máy học hỗ trợ lập bản đồ xác suất đầm lầy trên diện rộng Remote Sensing - Tập 9 Số 12 - Trang 1315
Các tiến bộ hiện đại trong điện toán đám mây và các thuật toán máy học đang thay đổi cách sử dụng dữ liệu quan sát Trái Đất (EO) để giám sát môi trường, đặc biệt là trong thời kỳ dữ liệu vệ tinh truy cập mở và miễn phí đang trở nên phổ biến. Việc phân định đầm lầy là một ứng dụng đặc biệt có giá trị của xu hướng nghiên cứu nổi lên này, vì đầm lầy là một thành phần quan trọng về sinh thái nhưng lại thường bị thiếu đại diện trong các chương trình lập bản đồ và giám sát hiện đại, đặc biệt ở cấp độ khu vực và quốc gia. Lợi dụng Google Earth Engine và phần mềm thống kê R, chúng tôi đã phát triển một quy trình công việc để dự đoán khả năng xuất hiện đầm lầy sử dụng mô hình máy học cây hồi quy tăng cường được áp dụng cho dữ liệu địa hình số và EO. Nghiên cứu tại khu vực 13.700 km2 ở Bắc Alberta, mô hình tốt nhất của chúng tôi đã cho ra kết quả xuất sắc, với giá trị AUC (diện tích dưới đường cong đặc tính hoạt động của máy thu) là 0.898 và giá trị sự biến thiên giải thích là 0.708. Kết quả của chúng tôi chứng tỏ vai trò trung tâm của các biến địa hình chất lượng cao trong việc mô hình hóa phân bố đầm lầy ở quy mô khu vực. Việc bao gồm các biến quang học và/hoặc radar vào quy trình đã cải thiện đáng kể hiệu suất của mô hình, mặc dù dữ liệu quang học hoạt động tốt hơn một chút. Việc chuyển đổi mô hình khả năng xuất hiện đầm lầy của chúng tôi thành phân loại nhị phân Wet-Dry cho độ chính xác tổng thể 85%, gần như giống với giá trị thu được từ giải pháp Tổng hợp Đầm lầy Alberta (AMWI): bản kiểm kê đương đại được Chính phủ Alberta sử dụng. Tuy nhiên, quy trình công việc của chúng tôi chứa đựng một số lợi thế chính so với quy trình được sử dụng để sản xuất AMWI, và cung cấp một nền tảng có thể mở rộng cho các sáng kiến giám sát toàn tỉnh.
#Điện toán đám mây #Máy học #Dữ liệu quan sát Trái Đất #Phân định đầm lầy #Google Earth Engine #Hồi quy tăng cường #Alberta #Vệ tinh truy cập mở #Mô hình hóa đầm lầy #Biến địa hình #Dữ liệu quang học #Dữ liệu radar
Lập bản đồ ba thập kỷ biến đổi thực vật tự nhiên trong thảo nguyên Brazil bằng dữ liệu Landsat xử lý trên nền tảng Google Earth Engine Remote Sensing - Tập 12 Số 6 - Trang 924
Phổ biến ở các khu vực cận nhiệt đới và nhiệt đới thuộc Nam Bán cầu, thảo nguyên là một loại thảm thực vật tự nhiên có tính không đồng nhất và tính mùa vụ rất cao, khiến việc phát hiện thay đổi (tự nhiên so với nhân tạo) trở thành một nhiệm vụ thách thức. Cerrado của Brazil đại diện cho thảo nguyên lớn nhất ở Nam Mỹ, và là kiểu sinh cảnh bị đe dọa nhất ở Brazil do mở rộng nông nghiệp. Để đánh giá những khu vực thực vật Cerrado tự nhiên (NV) dễ bị thay đổi tự nhiên và nhân tạo nhất theo thời gian, chúng tôi đã phân loại 33 năm (1985–2017) dữ liệu ảnh Landsat có sẵn trên nền tảng Google Earth Engine (GEE). Chiến lược phân loại đã sử dụng sự kết hợp giữa cây quyết định kinh nghiệm và thống kê để tạo ra các bản đồ tham chiếu cho phân loại học máy và một tập dữ liệu hàng năm mới của các loại Cerrado NV chính (rừng, thảo nguyên và đồng cỏ). Chúng tôi thu được các bản đồ NV hàng năm với độ chính xác trung bình từ 87% (ở cấp độ phân loại NV 1) đến 71% trong chuỗi thời gian, phân biệt ba loại NV chính. Chuỗi thời gian này sau đó được sử dụng để tạo bản đồ xác suất cho mỗi lớp NV. Thực vật tự nhiên trong sinh cảnh Cerrado đã giảm với tốc độ trung bình 0,5% mỗi năm (748.687 ha/năm), chủ yếu ảnh hưởng đến rừng và thảo nguyên. Từ năm 1985 đến năm 2017, 24,7 triệu hecta NV đã bị mất, và hiện chỉ còn 55% phân bố NV ban đầu. Trong số NV còn lại vào năm 2017 (112,6 triệu hecta), 65% đã ổn định qua các năm, 12% thay đổi giữa các loại NV, và 23% đã chuyển đổi sang các mục đích sử dụng đất khác nhưng hiện đang ở một mức độ nào đó của NV thứ cấp. Kết quả của chúng tôi rất cơ bản trong việc chỉ ra các khu vực có tỷ lệ thay đổi cao trong chuỗi thời gian dài ở Cerrado Brazil và để làm nổi bật các thách thức của việc lập bản đồ các loại NV khác biệt trong một thảo nguyên có tính mùa vụ và không đồng nhất cao.
#Cerrado #Landsat #Google Earth Engine #thực vật tự nhiên #biến đổi khí hậu #phân loại máy học #rừng #thảo nguyên #môi trường
Allogeneic Transplant with Reduced Intensity Conditioning Regimens may Overcome the Poor Prognosis of B-Cell Chronic Lymphocytic Leukemia with Unmutated Immunoglobulin Variable Heavy-Chain Gene and Chromosomal Abnormalities (11q− and 17p−) Clinical Cancer Research - Tập 11 Số 21 - Trang 7757-7763 - 2005
Abstract
Purpose: To evaluate the efficacy of reduced intensity conditioning (RIC) allogeneic transplant in 30 patients with poor-prognosis chronic lymphocytic leukemia (CLL) and/or high-risk molecular/cytogenetic characteristics.
Experimental Design: Eighty-three percent of patients had active disease at the moment of transplant. That is, 14 of the 23 patients analyzed (60%) had unmutated immunoglobulin variable heavy-chain gene (IgVH) status; 8 of 25 patients (32%) had 11q−, with four of them also displaying unmutated IgVH; and six (24%) had 17p− (five were also unmutated).
Results: After a median follow-up of 47.3 months, all 22 patients alive are disease free; overall survival and event-free survival (EFS) at 6 years were 70% and 72%, respectively. According to molecular/cytogenetic characteristics, overall survival and EFS for unmutated CLL and/or with 11q− aberration (n = 13) were 90% and 92%, respectively, not significantly different to those with normal in situ hybridization, 13q− and +12, or mutated CLL (n = 7). All six patients with 17p deletion were transplanted with active disease, including three with refractory disease; all except one reached complete remission after the transplant and two are alive and disease free. Nonrelapse mortality (NRM) was 20%; more than two lines before transplant is an independent prognostic factor for NRM (P = 0,02), EFS (P = 0.02), and overall survival (P = 0.01). Patients older than 55 years have a higher risk of NRM (hazard ratio, 12.8; 95% confidence interval, 1.5-111). Minimal residual disease was monitored by multiparametric flow cytometry in 21 patients. Clearance of CD79/CD5/CD19/CD23 cells in bone marrow was achieved in 68% and 94% of the patients at days 100 and 360, respectively.
Conclusion: According to these results, RIC allogeneic transplant could overcome the adverse prognosis of patients with unmutated CLL as well as those with 11q− or 17p−.
Bản đồ Sử dụng Đất đai và Lớp phủ Đất dựa trên Hình ảnh Vệ tinh Sentinel-2, Landsat-8 và Google Earth Engine: So sánh hai phương pháp ghép hỗn hợp Remote Sensing - Tập 14 Số 9 - Trang 1977
Bản đồ sử dụng đất đai và lớp phủ đất (LULC) chính xác và thời gian thực rất quan trọng để cung cấp thông tin chính xác cho việc giám sát động, quy hoạch và quản lý Trái Đất. Với sự ra đời của các nền tảng điện toán đám mây, các kỹ thuật trích xuất đặc tính theo chuỗi thời gian và các bộ phân loại học máy, đang xuất hiện những cơ hội mới trong việc lập bản đồ LULC chính xác và quy mô lớn hơn. Trong nghiên cứu này, chúng tôi nhằm tìm hiểu cách hai phương pháp ghép hỗn hợp và các chỉ số quang phổ–thời gian được trích xuất từ chuỗi thời gian vệ tinh có thể ảnh hưởng đến khả năng của một bộ phân loại học máy trong việc tạo ra bản đồ LULC chính xác. Chúng tôi đã sử dụng nền tảng điện toán đám mây Google Earth Engine (GEE) để tạo ra chuỗi thời gian Sentinel-2 (S-2) và Landsat-8 (L-8) không có mây trên tỉnh Tehran (Iran) tính đến năm 2020. Hai phương pháp ghép hỗn hợp, cụ thể là hỗn hợp theo mùa và chỉ số phần trăm, đã được sử dụng để định nghĩa bốn tập dữ liệu dựa trên chuỗi thời gian vệ tinh, chỉ số thảm thực vật và các lớp địa hình. Bộ phân loại rừng ngẫu nhiên đã được sử dụng trong phân loại LULC và để xác định các biến quan trọng nhất. Kết quả đánh giá độ chính xác cho thấy rằng S-2 vượt trội hơn so với các chỉ số quang phổ–thời gian của L-8 ở cấp độ tổng thể và cấp lớp. Hơn nữa, sự so sánh giữa các phương pháp ghép hỗn hợp chỉ ra rằng hỗn hợp theo mùa vượt trội hơn chỉ số phần trăm trong cả chuỗi thời gian S-2 và L-8. Ở cấp lớp, hiệu suất cải thiện của hỗn hợp theo mùa liên quan đến khả năng của chúng cung cấp thông tin tốt hơn về sự biến đổi thời kỳ sinh thái của các lớp LULC khác nhau. Cuối cùng, chúng tôi kết luận rằng phương pháp luận này có thể tạo ra bản đồ LULC dựa trên GEE đám mây điện toán một cách chính xác và nhanh chóng và có thể được sử dụng trong lập bản đồ LULC quy mô lớn.
#Bản đồ LULC #điện toán đám mây #Google Earth Engine #máy học #phân loại rừng ngẫu nhiên #Sentinel-2 #Landsat-8 #chỉ số quang phổ–thời gian #hỗn hợp theo mùa #chỉ số phần trăm.